Introducción a la Visión por Computadora y el Procesamiento de Imágenes Digitales
Visión por Computadora es el campo de la inteligencia artificial que permite a las computadoras obtener información significativa a partir de imágenes y videos digitales, intentando efectivamente cerrar la brecha semántica entre los datos brutos de píxeles y la comprensión a nivel humano.Procesamiento de Imágenes Digitales sirve como capa fundamental para la Visión por Computadora, centrándose en la manipulación y mejora de señales de imagen mediante transformaciones píxel a píxel para preparar los datos para tareas interpretativas de nivel superior.
Principios Fundamentales
- Representación de Datos: A nivel de máquina, una imagen es un tensor numérico, más que una imagen global. Las imágenes en escala de grises son matrices 2D de valores de intensidad, mientras que las imágenes en color son tensores 3D que representan los canales Rojo, Verde y Azul (RGB) con dimensiones $H \times W \times 3$.
- Transformación frente a Interpretación: El Procesamiento de Imágenes Digitales se ocupa principalmente de operaciones imagen a imagen, como reducción de ruido, agudización o ecualización de histograma. La Visión por Computadora se enfoca en operaciones imagen a conocimiento, como clasificación de objetos, localización y segmentación.
- El Paradigma de Gráficos Inversos: La Visión por Computadora puede considerarse como lo inverso de la Gráfica por Computadora. Mientras que la graficación busca generar un mundo visual a partir de modelos matemáticos, la visión busca recuperar estructuras 3D y etiquetas semánticas a partir de proyecciones 2D.
El Desafío Fundamental
El principal desafío en este campo es la Brecha Semántica, que es la desconexión entre los valores de píxeles de bajo nivel procesados por las máquinas y los conceptos de alto nivel percibidos por los humanos.
Implementación en Python
Pregunta 1
¿Qué proceso se clasifica como una operación imagen a conocimiento?
Pregunta 2
¿Cuál es la estructura de datos de una imagen en color estándar a nivel de máquina?
Estudio de Caso: Sistema Médico de Diagnóstico
Lee el escenario a continuación y responde las preguntas.
Un hospital está desarrollando un nuevo sistema automático de diagnóstico médico diseñado para analizar radiografías en busca de posibles fracturas óseas. El sistema procesa datos brutos del sensor de la máquina de rayos X y genera un informe diagnóstico para el radiólogo.
Q
1. Si el sistema aplica mejoras de contraste para hacer más claras las estructuras óseas, ¿es Procesamiento de Imágenes Digitales (DIP) o Visión por Computadora (CV)?
Respuesta:
Procesamiento de Imágenes Digitales. La mejora de contraste es una transformación imagen a imagen que mejora la calidad visual de la señal sin extraer significado semántico.
Procesamiento de Imágenes Digitales. La mejora de contraste es una transformación imagen a imagen que mejora la calidad visual de la señal sin extraer significado semántico.
Q
2. Si el sistema marca automáticamente un área específica como posible fractura, ¿qué tarea está realizando?
Respuesta:
Visión por Computadora / Detección de Objetos. El sistema está interpretando el contenido de la imagen para extraer conocimiento de alto nivel (localizar una fractura).
Visión por Computadora / Detección de Objetos. El sistema está interpretando el contenido de la imagen para extraer conocimiento de alto nivel (localizar una fractura).
Q
3. ¿Por qué es necesario reducir el ruido antes de ejecutar un algoritmo de detección?
Respuesta:
Para mejorar la calidad de la señal y reducir falsos positivos en la fase de interpretación semántica. El ruido puede ser malinterpretado por los algoritmos de CV como características reales o bordes.
Para mejorar la calidad de la señal y reducir falsos positivos en la fase de interpretación semántica. El ruido puede ser malinterpretado por los algoritmos de CV como características reales o bordes.